# jieba分词
# 作用：把一句话 按照词汇分隔，为后面的词频统计和图片展示打基础。
# 安装 pip install jieba

import jieba

results = jieba.cut('把一句话 按照词汇分隔，为后面的词频统计和图片展示打基础。', cut_all=False)
# jieba.cut()返回生成器，直接print(results)看不到结果，需要循环。生成器类似列表，优点节省内存，缺点只能循环一次。

word_list = []
for r in results:
    # print(r)
    word_list.append(r)
print(word_list)    # ['把', '一句', '话', ' ', '按照', '词汇', '分隔', '...']


# 2.把数据库京东评论表数据读出，
# comments = [(1,'商品真不错啊'), (2,'电池续航一般。。。') (3,'评论3')]
# 循环把所有评论拼成一个长字符串
# long_comment = ''
# for c in comments:
#     long_comment = long_comment + c[1]
# jieba.cut('long_comment')

"""
生成器generator，参考L4/5小节。
跟列表相比：
1. 都是可迭代的，被for循环。range(0,10)返回的就是生成器。
2. generator优点用一个取一个，占内存低。
3. 循环后才能看到数据不太直观；数据只能取用一次。如果想重复访问，需要再次生成generator或把数据放入变量。

jieba分词结果较大，所以返回生成器而不是列表。
"""